Paramètres de détection (U/V) de l’EVOC 20 PolySinth

La parole humaine est constituée d’une série de sons vocaux (sons tonals ou formants) et de sons non vocaux (U/V). La différence principale entre sons vocaux et non vocaux est que les sons vocaux sont produits par une oscillation des cordes vocales, alors que les sons non vocaux sont produits par des blocages et des restrictions imposés sur le flux d’air par les lèvres, la langue, le palais, la gorge et le larynx.

Si un tel discours, contenant à la fois des sons vocaux et non vocaux, est utilisé comme signal d’analyse d’un vocoder alors que le moteur de synthèse ne peut pas les différencier, il en résulte un son sans relief. Pour éviter ce problème, la section Synthesis du vocoder doit produire des sons différents pour les parties vocales et non vocales du signal.

L’EVOC 20 PolySynth est donc muni un détecteur non vocal/vocal (U/V, Unvoiced/Voiced) à cet effet. Ce composant détecte les parties non vocales du son dans le signal d’analyse, puis remplace les parties correspondantes dans le signal de synthèse par du bruit, un mélange de bruit et de signal du synthétiseur ou par le signal d’origine. Si le détecteur U/V identifie des parties vocales, il transmet ces informations à la section Synthesis, qui utilise le signal de synthèse normal pour ces parties.

Un formant est une crête dans le spectre de fréquences d’un son. Dans le contexte des voix humaines, les formants constituent le composant clé permettant à l’oreille humaine de distinguer le son des différentes voyelles, en se basant uniquement sur la fréquence des sons. Les formants de discours et de chansons sont générés par le tractus vocal, avec la majorité des sons de voyelles contenant au moins quatre formants.

Figure. Paramètres U/V Detection.

Paramètres U/V Detection